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Vorrichtung zur photorealistischen Darstellung von 
dynamischen komplexen dreidimensionalen Szenen 
mittels des Ray-Tracing Verfahrens 

Die Erfindung betrifft eine Vorrichtung, mit der dynamische, komplexe dreldimensionale 
Szenen mit hohen Bildwiederholraten unter Verwendung einer Echtzeit Ray-Tracing 
Hardwarearchitektur auf einem zweldimensionalen Display dargesteilt werden kdnnen. 
Dynamische Szenen sind Szenen, in denen sich neben der Kameraposition auch die 
Geometrie der darzustellenden Objekte von Frame zu Frame flndern kann. Die Erfindung 
zeichnet sich vor allem dadurch aus, dass sie eine Hierarchiestruktur von Objekten 
unterstQtzt, das heiBt die Hauptszene kann aus mehreren Objekten bestehen, die jeweils 
aus weiteren Objekten aufgebaut slnd, wobei drese Schachtelung beliebig fortgefQhrt 
werden kann. Die auf den einzelnen Hierarchieebenen befindlichen Objekte konnen 
sowohl einzeln, als auch im Verbund bewegt werden. Hierdurch 1st es mSgllch, komplexe 
Szenen mit hoher Dynamik zu erstellen und duroh Verwendung des gleichen Objektes an 
mehreren Stellen der Szene die Representation der Szene im Speicher klein zu halten. 

Zur erfindungsgemafien Realisierung dieser verschachtelten Objektebenen, wird die 
hardwaremaSlge Umsetzung der bekannten Ray-Tracing-Pipeline urn eine 
hardwaremSIJig realislerte Transformationseinheit erweitert, welche die Strahlen in die 
Objekte hinein transformiert. Diese Einhelt ist zur optimalen Ausnutzung der 
Hardwareressourcen nur einmal vorhanden und wird neben der Objektraumtransformation 
auch zur Berechnung des Schnittpunktes des Strahles mit einem Dreieck, der Erstellung 
von PrimSrstrahlen und zur Erstellung von SekundSrstrahlen verwendet. 

Dutch die Verwendung von speziellen auf Ray-Tracing ausgelegten Prozessoren gestattet 
die Erfindung dem Anwender die voile Programmierbarkeit des Systems, indem 
erfindungsgemaiJ eine neuartige Prozessorarchitektur, bestehend aus der Kombination 
eines Standard Prozessorkerns mit einem, oder mehreren speziellen Ray-Tracing 
Befehlen verwendet wird. Die Verwendung dieser Ray-Tracing Prozessoren erlaubt die 
Programmlerung verschiedenster Ray-Tracing-Verfahren. Primitive Objekte der Szene 
kfinnen programmierbar gestaltet werden, so dass im Gegensatz zu heutigen Grafikkarten 
auch die Verwendung von Spline FlSchen moglich ist, indem ein spezieller 
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SchnitlpunWberechnungsalgorithmus eines StraMes mit der SplineflSche programmiert 
wlrd. Wie in heutiger Rasterlsierungshardware Qblich kOnnen verechiedenste 
Shadingmodelle for Oberflacben programmiert werden. 

Zur Ausgabe der Bilddaten auf einem Display kann die Erfindung durch die Verwendung 
gemeinsamer Frame-Buffer und Z-Buffer mit einer dem Stand der Technik 
entspnechenden Rastertsierungshardware kombiniert werden. 



Stand der Technik 

Der Stand der Technik bezOglich der Darstellung von dreidimensionalen Szenen ist 
derzeit in zwei Haupt-Sektoren einzuteilen, das Rasterisierungsverfahren und das 
Ray-Tracing Verfahren {siehe Computer Graphics / Addison-Wesley 
ISBN 0201848406 ). 

Das bekannte, vor allem in Computer-Graphlkkarten zum Einsatz kommende 
Rasterisierungsverfahren beruht auf dem Prinzip, jede Geometrie der Szene auf einen 
Frame-Buffer und Z-Buffer zu projizieren. Hierzu werden die Farb- und Helligkeitswerte 
der Pixel im Frame-Buffer und die geometrischen Tiefenwerte im Z-Buffer gespeichert, 
Jedoch nur dann, wenn der vorherige geometrische Wert im Z-Buffer grfi&er (welter vom 
Betrachter entfemt liegend) als der neue ist. Hlerdurch wird sichergestelit, dass nahere 
Objekte fernere Qberschreiben und nach Ablauf des Verfahrens nur noch die wirklich 
sichtbaren Objekte im Frame-Buffer abgebildet sind. 

Dieses Verfahren hat jedoch den entscheidenden Nachteil, dass aufwSndige Szenen mit 
Millionen von Objekten mit der bisher bekannten Hardware nicht in Echtzeit dargestellt 
werden konnen, da es in der Regel erforderiich ist, alle Dreiecke (Objekte) der Szene zu 
projizieren. Des weiteren wird ein Frame-Buffer und Z-Buffer benotigt, auf dem viele 
Milliarden Schrelboperationen in der Sekunde durchgefOhrt werden mGssen, wobei zum 
Bildaufbau die meisten Pixel mehrfach pro Frame Oberschrieben werden. Das 
Qberschreiben des zum Betrachter welter entfernten Pixels durch Pixel nSherer Objekte 
hat zur Folge, dass bereits berechnete Daten verworfen werden, wodurch eine optimale 
Systemleistung nicht rea/isiert werden kann. 

Schatten konnen mit aufwSndigen Techniken auf heutiger Rastertsierungshardware 
berechnet werden, jedoch ergeben sich bei komplexen Szenen Probleme hinsichtlich der 
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Genauigkert. Spiegelungen an gekrummten Fiachen, sowie die Berechnung von 
Uchtbrechungen sind mit dieser Technik nicht physikalisch korrekt zu realisieren. 

Leistungssteigernde Verbesserung schafft ein zwettes Verfahren, das Ray-Tracing 
Verfahren, das durch seine photorealistischen Bilder, aber auch durch die 
Rechenkomplexitat bekannt ist Die Grundidee von Ray-Tracing steht in nahem Bezug zu 
physikalischen Uchtverteilungsmotfellen (siehe Computer Graphics / AddisorvWesley 
ISBN 0201848406). 

In einer reaten Umgebung wlrd Licht von Uchtquellen emittiert und nach physikalischen 
Gesetzen in der Szene verteilt. Mit einer Kamera kann das Bitd der Umgebung 
eingefangen werden. Ray-Tracing geht den umgekehrten Weg und verfolgt das Licht von 
der Kamera, welche die Betrachterposition darstellt, zurttck zu ihrer Quelle. Hierzu wird for 
jedes Pixel des Bildes ein virtueller Strahl in die, das Pixel beleuchtende, Richtung 
geschossen. Dieses SchieBen des Strahles nennt man Ray-Casting. Trifft der Strahl ein 
Objekt so berechnet sich die Farbe des Pixels unter anderem aus der Farbe des 
getroffenen Objektes, der OberflSchennormalen und den vom Auftreffpunkt sichtbaren 
Uchtquellen. Die sichtbaren Uchtquellen sind durch die Verfolgung der Sekunddrstrahlen, 
die von jeder Lichtquelle zu dem Auftreffpunkt geschossen werden, zu ermitteln. Treffen 
diese Schattenstrahlen ein Objekt zwischen Lichtquelle und Auftreffpunkt, so liegt der 
Punkt im Schatten bezdgtich der Lichtquelle. 

Dieses Verfahren ermGglicht neben der beschriebenen Schattenberechnung auch noch 
die Berechnung von Spiegelungen und der Brechungen des Uchtes, indem 
Reflexionsstrahlen bzw. gebrochene Sekundfirstrahlen berechnet werden. Des weitenen 
kfinnen Szenen nahezu beliebiger Grd&e gehandhabt und dargestelK werden. Der Grund 
hierfQr liegt in der Anwendung einer Beschleunigungsstruktur. Dies ist ein spezielles 
Verfahren mlt entsprechender Datenstruktur, die es ermftglicht, den virtuellen Strahl 
schnell durch die Szene zu u schieBen° bzw zu traversieren. Auf dem Weg werden einige 
Objekte selektiert, die mfigfiche Trefferkandidaten sind, wodurch der Auftreffpunkt schnell 
gefunden wird. Theoretische Untersuchungen haben ergeben. dass die Komplexitat des 
Ray-Tracing Verfahrens im Mittel logarithmisch mit der SzenengrtMJe wSchst Das heiftt, 
eine Quadrierung der Zahl der Objekte der Szene bedeutet ledigllch den doppelten 
Rechenaufwand. 

Typlsche Beschleunigungsstrukturen sind zum Beisplel das negelmSBige Grid, der 
k-D Baum, der Octree und die Bcunding-Volume-Hierarchy (siehe Computer Graphics / 
Addison-Wesley JSBN 0201848406). Allen diesen Verfahren liegt die Idee zu Grunde, den 
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Raum in viele Teilraume aufeuteilen und fOr jeden solchen Teilraum die dort vorhandene 
Geometrie zu speichem. Das Traversierungsverfahren verfolgt den Strahl dann von 
Teilraum zu Teilraum und schneidet diesen immer mit genau den Objekten, die sich in 
dem Teilraum befinden. Die vier Verfahren unterscheiden sich nur in der Anordnung der 
Teilraume. Bei dem regelma&igen Grid ist der Raum in wOrfelformige Teilraume glelcher 
Gr6de unterteilt Zur Veranschaulichung wird In diesem Zusammenhang auf die 
Darstellung der Figur 7 verwiesen. Die drei anderen Verfahren beruhen auf einer 
rekursiven Unterteilung des Raumes. Beim k-D Baum Verfahren wird der Startraum 
rekursiv an einer beliebfgen Stelle achsenparallel geteilt Hlerzu wird zur 
Veranschaulichung auf Figur 8 verwiesen. Diese Aufteilung des Raumes wird in einer 
rekursiven Datenstruktur (einem binfiren Baum) gespeichert. Das dritte Verfahren namens 
Octree, ist ebenfalls rekursiv, nur werden dfe betrachteten Teilraume immer in 8 
gleichgro&e rechteckige Teilraume unterteilt. Zur Veranschaulichung wird hierzu auf Figur 
9 verwiesen. Die Boundlng-Volume-Hierarchie unterteilt den Raum in n beliebige 
Volumina, die sogar Qberlappen dOrfen, was bei den anderen Verfahren nicht erlaubt ist 

Im Gegensatz zum Rasterisierungsverfahren existiert momentan keine reine 
Hardwarel&sung, die das Ray-Tracing-Verfahren umsetzt, sondem nur 
softwarebasierende Systeme, die verglelchsweise viel Rechenleistung und Rechenzeit 
erfordem. Zur Veranschaulichung des zeitlichen Umfanges der Berechnungen sei 
bemerkt, dass abhangig von der Komplexitat des Bildes und der verwendeten Software 
mit der momentan dem Stand der Technik entsprechenden PC Hardware eine Rechenzeit 
von einigen Sekunden bis zu mehreren Stunden benOtigt wird, urn ein einzelnes Standbild 
nach diesem Verfahren zu erstellen. Die Berechnungen von Bewegtbildem erfordert 
entsprechend viel Rechenzeit und/oder die Verfugbarkeit von speziellen Gro&rechnem. 

Der Lehrstuhl Computergraphik an der Universitat des Saarlandes hat ein 
softwarebasiertes Echtzelt Ray-Tracing System entwickett, das auf einem Cluster von 
Ober 20 Rechnern zum Einsatz kommt. 

Im US Patent 6 f 597 r 359 B1 ist eine HardwarelBsung fOr das Ray-Tracing Verfahren 
beschrieben. der sich jedoch auf statfsche Szenen beschrflnkt. 

Das US Patent 5.933,146 beschreibt ebenfalls eine Hardwarelfisung for das Ray-Tracing- 
Verfahren, auch eingeschrankt auf statische Szenen. 

Das Paper fl SaarCOR - A Hardware Architecture for Ray-Tracing" vom Lehrstuhl 
Computergraphik der Universitat des Saarlandes beschreibt eine Hardwarearchitektur far 
Ray-Tracing jedoch wiederum limitiert auf statische Szenen. 



WO 2005/D78665 PCT/DE2005/D00M6 

5 

Das Paper .A Simple and Practical Method for Interactive Ray-Tracing of Dynamic 
Scenes" vom Lehrstuhl Computergraphik der Unlvercitfit des Saarlandes beschrelbt einen 
Softwareansatz zur UnterstOtzung von dynamischen Szenen in etnem Ray-Tracer. Das 
beschriebene Software Verfahren verwendet jedoch nur eine Stufe von Objekten, kann 
also keine Schachtelung in mehreren Stufen durchfuhren. 

Der beschriebene Stand der Technlk bietet momentan weder Software- noch 
Hardwareldsungen. mit denen komplexe dynamische Szenen in Echtzeit dargestellt 
werden kOnnen. Bel den bekannten Rasterislerungsverfahren liegt die 
Leistungsbegrenzung in der Zahl der darzustellenden Objekte. 

Ray-Tracing Systeme kfinnen zwar viele Dreiecke darstellen, sind jedoch wegen der 
benetigten Vorberechnungen darin beschrankt, dass die Position nur eingeschrankt 
geSndert werden kann. Szenen aus einigen Miflfarden Dreiecken erfordern sehr viel 
Rechenleistung und Speicher und sind nur auf schnellen und komplexen Groftrechnern 
Oder Clusteriosungen zu handhaben. 

Deshalb sind mit der verfugbaren Personal-Computerhardware soflwarebasierte 
dynamische Echtzeit Ray-Tracing Systeme nicht realisierbar. Die beschriebene 
Clusterlosung dQrfte aus KostengrOnden auf Spezialanwendungen beschrankt bleiben. 

DemgegenOber liegt der voriiegenden Erfmdung die Aufgabe zu Grunde, eine Vorrichtung 
vorzuschlagen, mit der sich Ray-Tracing-Verfahren schneller - vorzugsweise auch in 
Echtzeit - in dynamischen komplexen dreidimensionalen Szenen derart ausfOhren lassen, 
dass sich eine photorealistische Darstellung ergibt. 

Diese Aufgabe wird durch eine Vorrichtung nach Anspruch 1 geldst, indem diese 
Vorrichtung wenigstens einen programmierbaren Ray-Tracing Prozessor aufweist, in dem 
implementiert sind: 

• spezielle Traversierungsbefehle und/oder 

• Vektorarithmetikbefehle und/oder 

• Befehle zur Erstellung von Ray-Tracing Beschleunigungsstrukturen und/oder 

• wenigstens eine Entscheidungseinheit (Mailbox), mit der unterdrOckt wird, dass bei 
Ausftihrung des Ray-Tracing-Verfahrens beim SchieUen eines Strahles bereits mit 
dem Strahl geschnittene Objekte oder Dreiecke mehrfach mit dem Strahl 
geschnitten werden. 

Der Aufbau der Vorrichtung ist so organislert, dass mehrere Threads parallel abgearbeitet 
werden und mehrere Threads automatisch synchron abgearbeitet werden konnen. 
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Weiterhin verfdgt die Vorrichtung Qber eine n-level Cache Hierarchie und / Oder Ober ein 
vlrtuelles Speichermanagement und/oder eine direkte Verbindung mil dem Hauptspeicher. 



Diese Vorrichtung kann vorzugsweise als FPGA und / oder in ASIC Technologie und / 
oder einer anderen logikbasierten Halbleitertechnologie Oder in diskreter integrierter Logik, 
oder in der Kombination dieser Technologien realisiert sein. 

Zur naheren ErOrterung der Entscheidungseinheit wird auf Figur 2 verwiesen, aus der zu 
sehen ist, dass die Listen Einheit urn eine Mailbox erweitert wird. Diese Mailbox 
verhindert, dass ein Dreieck oder Objekt beim SchieSen eines Strahles mehrfach mit dem 
Strahl geschnitten wird, indem es sich bereits mit dem Strahl geschnittene Objekte oder 
Dreiecke merkt. Dadurch mQssen nicht so vie/e Straht-Objekt- bzw. Strahl-Drelecks- 
Schnittpunktberechnungen durchgefOhrt werden, was die Berechnung beschfeunigt Die 
Mailbox kann als eine Art Schntttpunktberechnungscache angesehen werden, der im 
Gegensatz zu elnem Speichercache nicht Speicheranfragen zum Speicher verhindert, 
sondern Schnittpunktberechnungen. Zur Implementierung der Mailbox kOnnen 
standardmaUige Cachfngverfahren wie 4~Wege-Caches verwendet werden. 

Anspruch 2 betrifft eine Vorrichtung zur photorealistischen Darstellung von dynamischen 
komplexen dreidimensionalen Szenen mittels des Ray-Tracing Verfahrens, wobei diese 
wenigstens eine spezielle Traversierungs-Einheit aufweist und wenigstens eine Usten- 
Einheit und wenigstens eine Entscheidungseinheit (Mailbox), mit der unterdrQckt wird, 
dass bei Ausftihrung des Ray-Tracing-Verfahrens beim SchleBen eines Strahles bereits 
mit dem Strahl geschnittene Objekte oder Dreiecke mehrfach mit dem Strahl geschnitten 
werden, und wenigstens eine Schnittpunktberechnungs-Einheit und wenigstens eine 
Einheit zum Ersteifen von Beschleunigungsstrukturen und wenigstens eine 
Transformations-Einheit und/oder wenigstens eine Einheit zum L6sen von linearen 
Gleichungssystemen und dass mehrere Strahlen oder Threads parallel abgearbeitet 
werden kOnnen und mehrere Strahlen bzw. Threads automatisch synchron abgearbeitet 
werden kdnnen und beliebig viele Stufen von dynamischen Objekten in dynamischen 
Objekten realisiert werden kfinnen und dass die Vorrichtung Qber eine n-level Cache 
Hierarchle und / oder Qber ein vlrtuelles Speichermanagement und/oder eine direkte 
Verbindung mit dem Hauptspeicher verfugt. 

Bei der Ausgestaltung nach Anspruch 3 ergibt sich als Unterschied zu der Ausgestaltung 
nach Anspruch 2, dass die wenigstens eine Transformations-Einheit und / oder die 
wenigstens eine Einheit zum Lflsen von linearen Gleichungssystemen und / oder die 
wenigstens eine Schnittpunktberechnungs-Einheit im Anspruch 2 bei dem Anspruch 3 
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durch elnen Ray-Tracing Prozessor erganzt wurde, der bererts in Anspruch 1 eriautert 
wurde. 

Diese auf dem Ray-Tracing Verfahren basierende Vorrichtung zur photorealistischen 
Darsteilung dreidimensionaler bewegter Szenen, bei der die softwaremaSig definierten 
Beschleunigungsstrukturen und Verfahren In entsprechende Hardwarestrukturen 
umgesetzt sind, 1st vorrangig zum Echtzeite/nsatz vorgeseben. 

Zur Realisierung belieblger ungeordneter Dynamik in einer Szene muss fQr jedes Bild der 
Bildfolge die Beschleunigungsstruktur neu berechnet werden. Dies bedeutet bei groSen 
Szenen einen enorm groBen Rechenaufwand da die gesamte Geometrie der Szene 
w angefasst° werden muss, Hierbei verschwindet der Vorteit der logarlthmischen 
Komplexitat in der SzenengrOSe. 

Eine im Paper „A Simple and Practical Method for Interactive Ray-Tracing" besohriebene 
Lfisung zu diesem Problem 1st die Unterteilung der Szene in Objekte und ausschlieBIich 
das Bewegen dieser Objekte als Ganzes zu erlauben. Hierbei werden zwei 
Beschleunigungsstrukturen benotigt. 

Eine Top-Level Beschleunigungsstruktur flber den Objekten der Szene und jeweils eine 
Bottom-Level Beschleunigungsstruktur f(ir jedes der Objekte. Die Objekte werden hierbei 
in Form von Instanzen von Objekten in der Szene positioniert 

Der Unterschied eines Objektes zu der Instanz desgleichen liegt darin, dass eine Instanz 
eines Objektes aus einem Objekt und einer Transformation besteht. Die Transformation 
1st eine affine Funktion, die das Objekt an eine beliebige Stelle der Szene verschiebt 
Affine Transformationen erlauben des weiteren ein Skalieren, Rotleren und Scheren (engl. 
shearing) von Objekten. Im folgenden wird der Einfachheit halber auch fQr Instanzen von 
Objekten der Begriff Objekt verwendet, falls keine VerwechslungsmOglichkeit besteht. 

Ein Strahl wird zunachst durch die Top-Level Beschleunigungsstruktur traversiert (Strahl 
durch die Szene verfolgen) bis ein mSgltehes Treffer-Objekt (das vom Strahl getroffene 
Objekt) gefunden wird. Nun transformiert man den Strahl in das lokale Koordinatensystem 
des Objektes und traversiert In der Bottom-Level Beschleunigungsstruktur des Objektes 
weiter bis ein Treffpunkt mit einem Primitiven Objekt gefunden ist. Primitive Objekte sind 
Objekte, die in sich keine weitere Struktur besitzen. Bei Ray-Tracern sind das in der Regel 
Dreiecke und Kugeln. 
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Diese Methode funktioniert in der Praxis sehr gut, jedoch nur so Jange die Zahl der 
Objekte nicht zu groB wind, da die Top-Level Beschleunigungsstruktur in jedem BikJ neu 
aufgebaut werden muss. Das neue Aufbauen dieser Beschleunigungsstruktur ist 
erforderlich, wenn die Objekte in dieser bewegt wurden. 

Die Erfindung steltt nun eine Hardwareldsung dar, die obige Aufteilung der Szene in 
Objekte rekursh/ unterstCftzt. Das heiUt, sie schrankt sich nlcht auf Objekte ein, die aus 
Primitiven Objekten bestehen, sondern eriaubt ebenfails, dass sich diese Objekte wieder 
aus Objekten zusammensetzen, die wiederum aus Objekten bestehen kdnnen usw. Fig.1 
zeigt wie aus mehrenen Stufen von Objekten ein Baum erstellt werden kann. ZunSchst 
wird als Objekt der Stufe 1 ein Blatt modelliert. Dieses Blatt wird nun mehrfach instantiiert 
und an einen Ast gesetzt, wodurch ein weiteres Objekt entsteht, jedoch jetzt ein Objekt 
der Stufe 2. Diese kleinen Aste konnen nun wieder mehrfach instantiiert werden zu einem 
grtJBeren Ast oder Baum als Objekt der Stufe 3 usw. Es ist anzumerken, dass hier 
mehrere Ebenen von Objekten In Objekten vorkommen und dass die Representation der 
Szene durch das mehrmalige Benutzen gleicher Geometrien kleln ist. 

Das in der Erfindung nach Anspruch 2 zum Einsatz kommende Verfahren fur das Ray- 
Casting sieht wie folgt aus: 

Der Strah] wird durch die Beschleunigungsstruktur der obersten Stufe traverslert bis ein 
mOgliches Treffer-Objekt gefunden ist Falls das Objekt ein Primitives Objekt ist, so wird 
der Schnittpunkt des Strahles mit dem Objekt berechnet. (st das Objekt kein Primitives 
Objekt, so wird der Strahl in das lokale Koordinatensystem des Objektes transformiert und 
setzt dort die Traversierung rekursiv fort. 

Ein wesentlicher Tell des Verfahrens ist die Transformation des Strahles in das bkale 
Koordinatensystem des Objektes, wodurch im Prinz)p die Positionierung des Objektes 
durch die affine Transformation rtlckgangig gemacht wird. Das heifit, der transformierte 
Strahl sieht das Objekt nun nicht mehr transformiert. Dieser Transformationsschritt 
erfordert eine recht aufwandige affine Transformation des Strahlstartpunktes und der 
Strahlrichtung, wobei jedoch die dazu erforderliche aufwandige Hardwareeinheit 
zusatzlich noch fQr weitere Aufgaben einsetzbar ist. Es steltt sich heraus, dass die 
Transformationselnheit ebenfails zur Berechnung des Schnittpunktes mit vielen Arten von 
Primitiven Objekten, zur Berechnung von Primarstrahlen und zur Berechnung vieler Arten 
von SekundSrstrahlen verwendet werden kann. 

Zur Berechnung der Primarstrahlen wird eine ahnliche Kameratransformationsmatrix 
angewandt, wie bei den bekannten Rasterisierungsverfahren. Zunachst werden 
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Pre-Primarstrahten der Gestaft R-((0,0 ( 0) ( <x,y ( 1)) , also Strahlen mit dem Startpunkt 
(0,0,0) und der Richtung (x,y,1) definiert, wobei x und y die Koordlnaten des Pixels zu 
dem ein PrimSrstrahl berechnet werden soil darstellt Zu jeder Kameraposition und 
Ausrichtung gibt es eine affine Transformation, die den Strahl R derart transformiert, dass 
er genau der Einfallsrichtung des Pixel (x,y) der Kamera entspricht. 

Urn den Schnittpunkt mit einem Primitiven Objekt zu berechnen, wird der Strahl in einen 
Raum transformiert, in dem das Primitive Objekt normiert ist. Im Falte eines Dreiecks als 
Primitives Objekt, wird der Strahl beispielsweise derart in einen Raum transformiert, dass 
das Dreieckdie Gestaft A n0 nii s ((1i0 l 0) l (0 l 0 l 0),(0 l 1 t 0)) hat. Zur Veranschaulichung wird auf 
FIgur 10 verwlesen. Diese Transformation kann durch eine affine Transformation 
• geschehen. Die anschlieflende Schnittpunktberechnung mit dem Normdreieck ist im 
Gegensatz zum allgemeinen Fall sehr einfach In Hardware zu iflsen. Wird die 
Transformation derart gewfihlt, dass die Dreiecksnormale auf den Vektor (0,0,1) im 
Dreiecksraum transformiert werden, so lasst sich das Skalarprodukt aus Strahl und 
Dreiecksnormale sehr einfach Im Dreiecksraum berechnen, da das Skalarprodukt aus 
Strahlrichtung (xt,yt,zt) und der Drelecksnormalen {0,0,1) gerade 0*xt+0*yt+1*zt = zt ist. 

Die Transformation kann des weiteren so gewfihlt werden, dass nur 9 FlieBkommazahlen 
for deren Representation benfltigt werden, indem die Dreiecksnormale auf eine geeignete 
Normale im Norm-Dreiecksraum abgebildet wird. Dies verhindert jedoch die MSgllchkeit, 
das Skalarprodukt im Norm-Dreiecksraum zu berechnen. 

Es ist klar ersichtlich, dass diese Norniobjekttransformation auch for andere Arten von 
Objekten verwendet werden kann, wie beispielsweise Kugeln, Ebenen, Quader, Zylinder 
und viele weitere geometrische Gebilde, es ist jeweils nur eine andere 
Schnittpunktberechnungseinheit zu erctellen. 

Ein grofler Vorteil hierbei ist die Tatsache, dass jede Art von Primitivem Objekt die gleiche 
Representation im Spefcher besitzt, nflmlich eine affine Transformation, die in den 
Objektnormraum transformiert. Dies erleichtert die Konzeption des Speicherinterface einer 
Hardwarel&sung. Die Transformation in den Objektnormraum nennt man die 
Normraumtransformation. 

Schattenstrahlen sowie Splegelungen lassen sich durch die Berechnung geeigneter 
Transformationen und geeigneter Strahlen effizient durch die Transformationseinheit 
berechnen, 
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Des wefteren 1st es mflglich, mft der Transformationseinheit Normalen (Vektoren die 
senkrecht auf einer FISche stehen) zu transformieren. Diese Normalentransformation ist 
deswegen ndtig, da einige Shadingmodelle die Normale der Geometrie am Auftreffpunkt 
benotigen. Diese Normale muss jedoch cm Weltkoondinatensystem vortiegen, was bei 
obigem Verfahren nicht zwangslSufig der Fall 1st Vielmehr liegt die Normale erstmals nur 
jm lokalen Koordinatensystem des getroffenen Objektes vor. Sie muss von dort wieder 
zuruck in das Weltkoordinatensystem transformiert werden. 

Die Transformationseinheit hat jedoch audi einen Nachteil. Da die afftnen 
Transformationen, die als Matrizen gespeichert werden kannen, sowohl for Dreiecke also 
audi fur die Objekte der Szene vorberechnet werden mQssen, ist es nicht ohne weiteres 
mflglich, die Position der Dreieckseckpunkte effizient von Frame zu Frame zu andem. 
Dies ist in Vertexshadern auf heutlgen Grafikkarten jedoch rnOglich. Vertexshader sind 
programmierbare Spezialeinheiten, die darauf optimiert sind, Bewegungen von Punkten 
Im Raum zu berechnen. 

Urn dies zu ermoglichen, muss man sich von der Vorberechnung der Daten liteen. 
Demzufolge ist es dann erforderiich, zur Schntttpunktsberechnung mit einem Dreleck ein 
lineares Gleichungssystem mit drei Unbekannten zu Iflsen. Dieses explizite Lfisen 
erfordert zwar mehr FlielJkomma-Operationen, ist jedoch in Verbindung mit 
Vertexshadern erforderlich. Demzufolge kann es sinnvoll sein, obige 
Transformationseinheit durch eine Einheit, die ein lineares Gleichungssystem lost, zu 
ersetzen. Diese Einheit kann unter anderem dazu verwendet werden, um mit Drelecken 
zu schneiden oder Strahlen in das lokale Koordinatensystem eines Objektes zu 
transformieren. 

Das in der Erfindung nach Anspruch 1 zum Einsatz kommende Verfahren fUr das Ray- 
Casting gliedert sich analog zu dem nach Anspruch 2 beschriebenen Verfahren, mit dem 
Unterschled, dass die Transformation und die Schnlttpunktberechnung durch geeignete 
Anweisungen f(lr den Ray-Tradng Prozessor umgesetzt werden. Hierbei bietet sich 
insbesondere die M5glichkeit alternative Verfahren zur Objekt-Strahl- 
Schnlttpunktberechnung einzusetzen. Beispielswelse erm&glicht die Verwendung des 
PlQcker-Strahl-Dreieckstests den effizienten Einsatz von Vertexshadern, 

Ein Problem von detailreichen Szenen slnd unerwtinschte Aliasing Effekte, die vor allem 
dann entstehen, wenn die Objektdichte in einer Richtung sehr hoch ist Dann kann es 
passieren, dass ein Strahl beispielswelse ein schwarzes Dreieck trifft und bet einer 
minimalen Bewegung der Kamera piatzlich ein weiBes Dreieck getroffen wird. Solche 



"WO 2004/078665 PCT/DE2005/000266 

11 

Effekte fQhren zu einem zeitlichen und Qrtlichen Rauschen im Biid. Der Grund liegt darin, 
dass Ray-Tracing in der Regel unendlich schmale Strahlen verwendet und nicht 
berQcksicbtigt, dass sich das LJcht, das einen Pixel beeinflusst, pyramidenffirmig 
ausbreitet und sich der Strahl mlt der Entfernung aufweitet. So mussten eigentiich alle 
Objekte, die sich in dieser Strahlenpyramide befinden l zur Berechnung der Pixelfarbe 
herangezogen werden, was in einem Echtzeitsystem nicht moglich ist. Abhilfe schafft hler 
eine neue vereinfachte Fomri des Cone-Tracings. Anstatt einen beliebig schmalen Strahl 
zu betrachten, wird zusatzllch der Offnungswinkel des Strahies bewertet. So kann je nach 
Entfernung zur Karnera die entsprechende Strahlbreite berechnet werden. Trifft man bei 
der Traversierung auf einen Teilraum, der zu einem GroGteil von dem Strahl Qberdeckt 
wird, so ist es unter UmstSnden nicht sinnvoll, welter zu traversieren. An dieser Stelle 
kann vorteilhaft eine vereinfachte Geometrie des Volumeninneren zur Berechnung 
verwendet werden. Dabei kann dann ignoriert werden, dass in dem Volumina vielleicht 
eine Million Dreiecke sind. Diese Dreiecke bilden unter Umstanden nur die Wand eines 
Gebirges, die wegen der Gr6Be des Strahies auch durch eine farbige Ebene approximiert 
werden kann. 

Fads die Dreiecke jedoch ein Iflchriges Gebflde wie zum Beispiel den Eifelturm 
modellieren, ist als Approximation eher die Farbe der konstruktiven Gitterelemente und 
efn Transparenzwert zu wShlen. 

Vorteilhaft lassen sich solche vereinfachten GeometriereprSsentatfonen in der 
Beschieunigungsstruktur unterstutzen. Figur 6 zeigt das Konzept am Beispiel eines 
Octrees. Zu dem fett umrandeten Volumfna, zu dem ein Knoten in der 
Beschieunigungsstruktur gehort, ist die vereinfachte Geometrie abgebildet. Der Strahl 
Qberlappt fast mit dem gesamten Volumen des Knotens, so dass die vereinfachte 
Geometrie zur Schnfttpunktsberechnung verwendet wird. 

Eine alternative Methode besteht darin, die Objekte der Szene mit unterschiedlichen 
Detaillevel abzuspeichern. Das heiSt, dass die Objekte mit unterschiedlicher Aufidsung 
oder Anzahl von Dreiecke modelliert werden und dass weiterhin abhangig von der 
Entfernung der Objekte zur Karnera detailreiche oder vereinfachte Objekte verwendet 
werden. 

Als nachteilig kdnnte bei der oben beschriebenen festverdrahteten, hardwarebasierten 
Ray-Tracing-Pipeline angesehen werden, dass es aufwdndig 1st, sie programmierbar zu 
gestalten. Im Vergleich zu einem Software Ray-Tracing Ansatz, wirkt die 
hardwarebasierte Pipeline sehr starr und spezielL 
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Abhilfe schafft die Entwicklung einer speziell auf das Ray-Tracing Verfahren angepassten 
CPU. Dieser spezielle Ray-Tracing Prozessor besteht aus einer Standard CPU, wie 
beispielsweise einem RISC Prozessor, dessen Befehlssatz um spezielle Befehle erweitert 
wird. Insbesondere ist ein Traversierungs-Befehl wichtig, der den Strahl durch eine 
BescWeunigungsstruktur traversieit Einige Stellen des Verfahrens erfordern des weiteren 
aufwandige arithmetische Operationen, die vorwiegend irn dreidimensionalen Raum 
geschehen. Es 1st demnach sinnvoll, die CPU mft einer Vektorarithmetikeinheit 
auszustatten, Shnlich den heute gelaufigen SSE2 Befehlssatzen. 

Eine weitere Optimierung der CPU kann dadurch erreicht werden, dass die 
Parallelisierbarkeit des Verfahrens ausgenutzt wird. Es ist demnach m6glich, sehr effektiv 
mehrere Threads (Programmabiaufe) auf einer CPU laufen zu lassen, was die Auslastung 
und Effektivitat der CPU deutlich erhttht. Dies gilt vor allem im Hinblick auf die 
Speicherwartezeiten. Macht ein Thread eine Speicheranfrage, so kann ein anderer 
wahrend der Anfrage ausgefQhrt wenden. Ein beispielhafter Aufbau soich einer CPU ist in 
Figur 5 zu sehen. 

Da bei dynamischen Szenen fOr jedes Frame Neuberechnungen von 
Beschleunigungsstrukturen durchgefOhrt werden mQssen, ist es erforderlich, den 
Befehlssatz der CPU um spezielle Befehle zur Erstellung von Beschleunigungsstrukturen 
zu erweitern. Bei der Erstellung von Beschleunigungsstrukturen muss oft entschieden 
werden, ob sich ein Objekt in einem gegebenen Teilraum befindet, in den es einsortiert 
werden soli, Oder nicht Eine spezielle Einheit, welche die Erstellung von 
Beschleunigungsstrukturen optlmiert, kann die erforderliche Berechnung dadurch 
beschieunigen, dass diese eine sehr einfach zu berechnende Vorabentscheidung failt. Als 
Teilraume werden h&ufig Boxen verwendet, deren 6 Begrenzungsfiachen senkrecht auf 
der x,y bzw z- Achse stehen. Soich eine Box kann durch ihre Eckpunkte charakterisiert 
werden, wobei die Definition von lediglich zwei Punkten sogar ausrelcht. Die 
Bestimmung/Entscheidung, ob sich das Dreleck in dieser Box befindet, kann in vielen 
Fallen mittels simpler Vergleiche der Koordinaten der Punkte erfolgea Llegt das Dreieck 
zum Belspiel in X-Richtung weit links von der Box so sind die X - Koordinaten der 3 
Eckpunkte des Dreiecks alle kleiner als die kleinste X- Koordinate der Eckpunkte der Box 
(siehe Fig. 13). Auch viele andere Konstetlationen kflnnen so entschieden werden, zum 
Beispiel, ob sich das Dreieck vollstandig in der Box befindet. Falls keine Entscheidung 
mSgllch ist, so miissen aufwSndige mathematische Formeln wie das SAP (Separating 
Axis Theorem) angewendet werden. Die Entscheidung, ob eine Box mit einer anderen 
Box Qberlappt, kann ebenfalls mit den Eckpunktvergleichen entschieden werden. 



AVO 2005/078665 PCT/DE2005/000266 

13 

Zur weiteren Optimierung wird eine Entscheidungseinhe'rt eingesetzt, die verhindert, dass 
belm SchieSen eines Strahles bereits mit dem Strahl geschnittene Objekte oder Dreiecke 
mehrfach mit dem Strahl geschnitten werden. Dies geschieht dadurch, dass die Listen 
Einhelt wie in Figur 2 zu sehen urn eine Mailbox erweitert wird. Diese Mailbox verhindert, 
dass ein Dreieck oder Objekt beim SchieBen eines Strahles mehrfach mit dem Strahl 
geschnitten wird, indem es sich bereits mit dem Straht geschnittene Objekte oder 
Dreiecke merkt. Dadurch mQssen nlcht so viele Strahl-Objekt- bzw. Strahl-Dreiecks- 
Schnittpunktberechnungen durchgefdhrt werden, was die Berechnung beschleunigt Die 
Mailbox kann als eine Art Schnittpunktberechnungscache angesehen werden, der im 
Gegensatz zu einem Speichercache nicht Speicheranfragen zum Speicher verhindert, 
sondern Schnittpunktberechnungen. Zur Implementierung der Mailbox konnen 
standardmSBige Cachingverfahren wie 4-Wege-Caches verwendet werden. 
i 

Die Einheiten der Ray-Tracing Architektur benotigen eine sehr hohe Speicherbandbreite, 
das heiSt, es mussen sehr viele Daten pro Zeiteinheit Obertragen werden. NormalerweJse 
1st dies nur zu realisieren, indem sehr viele Speicherchips parallel geschaltet werden. Die 
erfordertiche Speicherbandbreite kann jedoch auch durch eine geeignete Verschattung 
von mehreren Cachestufen (n-Level Caches) sfchengestellt werden. Wesentiich ist hier 
eine Eigenschaft des Ray-Tracing Verfahrens, die als KohSrenz bezeichnet wird. 
KohSrenz bezeichnet die Tatsache, dass Strahlen, die dhnliche Bereiche des 3D Raumes 
durchlaufen, auch auf nahezu die gleichen Daten in der Beschleunigungsstruktur 
zugreifen und dementsprechend also auch auf die gleichen Objekte. Wird dlese 
Eigenschaft ausgenutzt, konnen hohe Cache Hitraten erzielt werden. Das hei&t, die 
benotigten Daten werden mit grofler Wahrscheinllchkeit im Cache wiedergefunden und 
brauchen nicht zeitaufwandig aus dem Hauptspeicher geladen zu werden. Die Caches an 
sich sind entsprechend der Darstellung in Rgur 4 beispielsweise in einem binSren Baum 
angeordnet, urn mehrere Ray-Tracing Einheiten zu versorgen. 

Die erfindungsgema&e Vorrichtung kann in Verbindung mit einem 3D Display natQrlich 
auch zur photorealistischen dreidimensionalen Echtzeitdarstellung komplexer bewegter 
Szenen verwandt werden. Abhdngig von der Technologie des eingesetzten Displays sind 
hierbei drei Ausfuhrungsformen der Bildausgabe zu unterscheiden. 

Erstens eine AusfQhrungsform, bei der abwechselnd zwei den Stereoeindruck 
beinhaltende Bllder horizontal versetzt im Zeitmultiplexverfahren auf einem Display 
dangestellt werden. 
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Zweitens eine AusfQhrungsform, bei der zwel den Stereoeindruck reprasentierende, 
horizontal versetzte Bilder, die in abwechselnden senkrechten, die Bildinformation der 
beiden Bilder beinhaltende Strelfen auf einem Display dargestellt werden. 

Drittens elne AusfQhrungsform, bei der die beiden horizontal versetzten Bilder auf zwei 
getrennten Displays gleichzeitig Oder im Zertmultiplexverfahren dargestellt werden. 

Die beiden horizontal versetzten Bilder, die jeweils dem rechten oder iinken Auge 
zuzuordnen sind, werden durch entsprechend rSumliche Displayanordnungen oder durch 
den Einsatz von Bildtrennvorrichtungen (z.B. Shuttertorillen, streifenfOrmige Fresnel- 
Prismen/Linsen, Polarisationsfilter) jeweils nur einem Auge sichtbar. Die einzusetzenden 
3D Displays und deren Erfordernisse der Videosignalansteuerung entsprechen dem 
Stand der Technik und werden nicbt nflher beschrieben. Weltere Ausftlhrungen zum 
Stand der Technik von 3D Displays sind folgenden, beispielhaft genannten Schriften zu 
entnehmen : Computer Graphics / Addison-Wesley ISBN 0201848406, DE 4331715, 
DE 4417664, DE 19753040, DE 19827590, DE 19737449 

Der Einsatz computeranimierter photorealistischer Echtzeitdarstellung dreidimensionaler 
bewegter Szenen und Bilder erstreckt sich uber die Darstellung dreidimensionaler CAD 
Daten, die Darstellung medizinischer und technisch- analytrscher Daten, Qber die 
Filmanimation sowie dem Einsatz in Flug- und Fahrsimulatoren, bis zu den sogenannten 
Home Anwendungen in Computerspielen mlt aufwflndiger Echtzeitgraphik, 

DarQber hinaus kOnnen die gleichen Verfahren ohne weitere Anderungen an der 
funktionalen AusfQhrung auch zur nicht-photorealistischen Bilderzeugung (z.B. 
Strlchzeichnungen oder Comic-Stil Darstellungen) verwendet werden. Ebenso sind ohne 
weitere technische Anderungen Berechnungen durchfQhrbar, die Oblicherweise nicht 
direkt mlt Blldberechnung in Verbindung gebracht werden. Beispielsweise gehdren hierzu 
die Kollisionserkennung zwischen geometrischen Objekten (engl. Collision Detection) und 
das diskrete Lfisen von numerischen Problemen. Alle beschriebenen Anwendungen sind 
nicht auf den interaktiven Bereich beschrankt und kfinnen ohne Anderungen an Verfahren 
oder Vorrichtung auch im Offline-Bereich, beispielsweise bei der Berechnung von 
Kinofllmen oder sehr aulwSndigen physikalischen Simulationen, elngesetzt werden. 

Die funktionelle Realisierung und die Hardwareimptementierung der Ray-Tracing 
Verfahren erfolgt in komplexen und schnellen Logiktechnologien, wobei deren Umsetzung 
sowohl als festverdrahtete Digital-Logik in Form von diskreter Digital-Logik bestehend aus 
einzelnen Standard IC, oder Kunden- oder Anwendungsspezifisch gefertigten !C 
beispielsweise ASIC, oder von komplexen programmierbaren Logikbausteinen / 
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Logikschaltkreisen, beispiefsweise CPLD Oder FPGA Technologien mtt Oder ohne CPU 
Kern, oder der Kombination dieser Technologien erfolgt. 

Die nachfolgend beschriebene, beispielhafte AusfOhrungsform der Erfindung beschreibt 
die Ray-Tracing Einhelt einer Cornputer-Graphlkkarte, bei der die 
Hardwareimplementierung der Ray-Tracing Verfahren beispielsweise in einem 
freiprogrammierbanen Logikbaustein FPGA, in ASIC Technologie, oder in einem 
festverdrahteten Spezial Chip erfolgen kann. 

Soweit Verfahren und FunktionsablSufe beschrieben werden, so sind diese rein 
hardwaremSGig zu realisieren. Das bedeutet, dass entsprechende Logikeinheiten und 
hardwaremaGig realislerte Arithmetikeinheiten zu gestatten sind. 

Die Standardfunktion der Ansteuerelektronik zur Ansteuerung des Datendisplays 
(KathodenstrahtrOhre, TFT-, LCD* oder Plasmamonitor) und deren Timing entsprechen 
dem Stand der Technik, werden als bekannt vorausgesetzt und sind nicht Gegenstand 
der Beschreibung. Eine Schnfttstelle zwischen dem Bildspeicher dieser Standardfunktion 
und der erfindungsgema&en Umsetzung der Ray-Tracing Verfahren wind beschrieben. 

Die Beschreibung gliedert sich in zwei Teile. ZunSchst wird die Ray-Casting-Pipeline 
abgekurzt RCP beschrieben. Dabei handeft es sich urn den Kern des Designs, der 
Strahlen durch die Szene traversiert und den Auftreffpunkt zurGckliefert. 

(m zweiten Tell wird fOr die Ray-Casting-Pipeline eine optlmierte Ray-Tracing Architektur 
beschrieben, in der mehrere dieser Ray-Casting-Pipelines zusammenarbeiten. 

Die F(gur 2 zeigt die Ray-Casting-Pipeline Einheit (RCP), die aus mehreren 
Untereinheiten besteht. Die Traverslerungs-Einheit traversiert den Strahl durch eine 
geeignete Beschleunigungsstruktur, vorzugsweise einen k-D Baum. Der Strahl wird so 
lange traversiert, bis er in einen Bereich der Szene kommt, in dem sich mOgliche Treffer- 
Objekte befinden. Die Objekte dieses Bereiches sind in einer Liste gespeichert, die von 
der Listen-Einheit bearbeitet wird. Die Llsten-Einheit beinhaltet auch eine Mailbox, die 
verhindert, dass ein Dreieck oder Objekt beim SchieSen eines Strahles mehrfach mit dem 
Strahl geschnitten wird, indem es sich bereits mit dem Strahl geschnittene Objekte oder 
Dretecke merkt Dadurch mQssen nicht so viele StrahJ-Objekt- bzw. Strahl-Dreiecks- 
Schnittpunktberechnungen durchgefOhrt werden, was die Berechnung beschleunigt. 

Diese Objekte mussen nun auf einen mOglichen Schnittpunkt hin untersucht werden. Falls 
es keinen gQItigen Schnittpunkt gibt, muss mit der Traversierung fortgesetzt werden. Die 
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Listen-Einheit sendet die mfigfichen Treffer-Objekte, die nicht bereits bearbeitet wurden, 
eins nach dem anderen, zur Matrix-Lade-Elnheit, die die zu dem Objekt gehOrige affine 
Transformation ladt. Diese affine Transformation kann durch eine 4x3 Matrix dargestellt 
werden, Es kann sich dabei urn Objektraumtransformationsmatrizen Oder urn Matrizen 
handeln, die in den Normraum eines Primith/en Objektes transformieren. Nachdem die 
Matrix-Lade-Einheit die Matrix in der Transformationselnheit gespeichert hat, werden die 
Strahlen von der Strahl-Einhett durch die Transform ationseinheit geschickt. 

Nach der Transformation sind nun zwei Szenarien mfiglich. Zum einen kann es sich urn 
ein Objekt handeln, das noch weftere Objekte beinhaltet. 1st dies der Fall, so wandem die 
Strahlen wieder zurQck in die Traversierungs-Einheit und der transformierte Strahl wird in 
dem Objekt weiter traversiert Handeit es sich jedoch urn ein Primitives Objekt, so geht 
der Strahl direkt weiter in die Schnittpunktberechnungs-Einheit, die den Stahl mit dem 
Normobjekt schneidet. Die Schnittpunktberechnungs-Einheit kann wie zuvor beschrieben 
mehrere Normobjekte (Dreiecke, Kugeln usw.) untersttttzen. 

Die berechneten Schnittpunkt-Daten werden In der Schnittpunkt-Einheit gesammelt. Die 
Schnittpunkt-Einheit liefert einen RQckkanal zur Traversierungs-Einheit, so dass diese 
erkennen kann, ob schon gOHige Schnittpunkt-Daten vorhanden sind. 

Die Traversierungs-Einheit, Listen-Einheit und Matrix-Lade-Einheit sind die einzigen 
Einheiten der Ray-Casting-Pipeline, die auf externen Speicher zugreifen. Die 
Traversierungs-Einheit greift auf die Beschleunigungsstruktur zu, die Listen-Einheit auf 
Listen von Objektadressen und die Matrix-Lade-Einheit auf affine Transformationen in 
Form von Matrizen, Alie drei Einheiten sind Qber einen eigenen Cache mit dem 
Hauptspeicher verbunden, urn die n6tlge Speicherbandbreite zu gewShrlelsten. 

Eine vereinfachte Version der Ray-Casting-Pipeline ist in Figur 12 dargestellt, wobei nur 
die wichtigsten Einheiten abgebildet sind: die Traversierungs-Einheit, welche die Strahlen 
durch die Beschleunigungsstruktur traversiert, die Listen-Einheit, welche die Listen 
bearbeitet, die Transformatfons-Einhert, welche die geladene Transformation auf die 
Strahlen anwendet, und die Schnittpunktberechnungs-Elnheit, die den transformierten 
Strahl mit dem Norm-Objekt schneidet. 

Die Ray-Casting-Pipeline ist entsprechend der Darstellung der Figur 3 in eine geergnete 
Ray-Tracing Architektur eingebettet. Die Abbildung zeigt 4 Ray-Casting-Pipeline Einheiten 
mit ihren jewerls 3 Caches. Es sind hier jeweils 2 Einheiten mit einer Shading Einheit 
verbunden. Diese Shading Einheiten verwenden die Ray-Casting-Pipeline Einheiten, urn 
die Farben der Pixel des Bildes zu berechnen. Hierzu schie&t die Shading Einheit 
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Primflrstrahlen, verarbeitet die Auftreffinformationen, die die Ray-Casting-Pipe!ine 
zuruckllefert, und schieftt Sekundfirstrahlen beispielsweise zu Uchtquelten. Bei den 
Shadingeinheiten kann es sich urn festverdrahtete Hardware oder urn die spater 
beschriebenen programmierbaren Ray-Tracing Prozessoren handeln. 

Die Shading Einheiten besttzen elnen Kanal zur Transformationseinheit der Ray-Casting- 
Pipeline. Dieser wird verwendet, urn Kameramatrizen und Matrizen fur SekundSrstrahten 
zu laden und dadurch den Rechenaufwand for die Shading Einheit zu minimieren. Es ist 
vorteilhaft, wenn die Shading Einheiten jewells einen getrennten Textur Cache und 
Shading Cache besifzen. Der Shading Cache enthalt Shadinginformationen zu der 
Geometrie der Szene wie zum Beispiel Farben und Materialdaten. Der Texturcache ist mit 
dem Texturspeicher verbunden und ermBglicht den Shading Einheiten Zugriff auf 
Texturen. Es ist vorteilhaft, wenn jede Shading Einheit ihren eigenen tokalen Frame-Buffer 
besitzt, auf dem sie die Farben und Helligkeitswerte der gerade bearbeiteten / 
berechneten Pixel ablegt Des weltem ist es von Vorteil, falls ein Z-Buffer vorhanden ist, 
da dieser fur die nachfolgend beschriebene Anbfndung an die Standard- 
Rasterisierungshardware benStigt wird. 

Ist die Farbe eines Pixels von der Shading Einheit vollstfindig berechnet, so kann diese 
Farbe Qber die optionale Tone-Mapping-Einheit in den globalen Frame-Buffer geschrieben 
werden. Die Tone-Mapping-Einhelt wendet elne einfache Funktion auf die Farbe an, urn 
diese in dem 24 Bit RGB Raum abzubllden. Auch die geometrischen Tiefenwerte (Z- 
Werte), die im optionalen lokaten Z-Buffer gespeichert sind, kdnnen nun in den optionalen 
globalen Z-Buffer Obertragen werden. 

Die Farbe bzw. der neue Z-Wert werden Jedoch nur dann in den Frame-Buffer bzw. 
Z-Buffer geschrieben, wenn der zuvor im Z-Buffer vorhandene Z-Wert grader ist. 
Hierdurch ist sichergestellt, dass nur dann Pixel geschrieben werden, wenn sie 
geometrisch vor bereits von der Rasterisierungshardware oder anderen Ray-Tracing 
Passes berechneten Werten liegen. So 1st es moglich, die Ray-Tracing Hardware mit 
einer Standard Rasterisierungshardware zu kombinieren, die auf dem gleichen Frame- 
Buffer bzw. Z-Buffer arbeitet, der hierbei auch die Schnittstelle zu dieser Standard 
Rasterisierungshardware darstellt. 

Zur weiteren ErhOhung der Systemleistung kCnnen optional noch weitere Shading- 
Einheiten mit den zugehflrigen Ray-Casting-Pipelines und Caches parallel geschaltet 
werden. Der leistungssteigernde Effekt liegt hierbei in der Verbreiterung der Daten- und 
Verarbeitungsstruktur. 
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Es ist nicht zu erwarten, dass die gesamte Szene in den lokalen Hauptspeicher eines 
Ray- Tracing Chips passt Um dieses Problem zu I6sen, kann der lokale Hauptspeicher 
als ein grofier Cache verwendet werden, der grtfBere Blocke der Szene cached. Die 
eigentliche Szene befindet sich an anderer Stelle und wird Ober DMA bei Bedarf 
nachgeladen. Dieses Verfahren zur virtuellen Speicherbehandlung ermoglicht es, sehr 
gro&e Szenen zu visualisieren, die nicht in den Hauptspeicher des Ray-Tracing Chips 
passen. 

Photon Mapping ist ein Standardverfahren, indem vlrtuelle Photonen von den Lichtquellen 
aus in die Szene geschossen und auf den Ftachen der Szene angesammelt werden. Die 
Lichtverteilung der Szene kann somit simuliert werden. Dies gilt vor allem auch fur 
Kaustiken. Werden Photonen geschossen, so wird eine Beschleunlgungsstruktur Ober 
den Photonen aufgebaut, die beispielswefse ein k-d Baum sein kann. Nun kann ein Abbild 
dieser berechneten Photonenlichtverteilung erfolgen, indem die Szene mit 
standardmSSfgen Ray-Tracing Verfahren visualisiert wird und an jedem Auftreffpunkt die 
dort eintreffende Uchtintensitat derart in die Farbberechnung einflieSt, dass die Energie 
aller in der NShe dieses Punktes auftreffenden Photonen aufsummiert wird. Hierzu 
mDssen alle benachbarten Photonen in der Beschleunigungsstruktur der Photonen 
gesucht werden. Diese Aufgabe kann von der Traversierungseinheit unterstQtzt werden, 
(ndem nicht an einem Strahl entlang, sondem ein Volumina traversiert wird. Auf diese 
Weise konnen alle benachbarten Photonen bearbeitet werden, indem beispielswefse ihre 
Energie aufsummiert wird. 

In der Regel arbeiten Ray-Tracing Verfahren mit unendlich schmalen Strahlen, was zu 
Samplingartefakten (Aliasing) fQhrt. Eine viel bessere Approximation ergibt sich durch die 
Verwendung von Strahlkegeln ansteile von Strahlen. Das Licht, das ein Pixel der Kamera 
beleuchtet, kommt nicht nur aus einer diskneten Richtung, sondem aus erner Art 
Pyramide, die durch einen Kegel sehr gut approximiert werden kann. Das Traversieren 
dieses Raumvoluminas von vome nach hinten, beschrieben durch einen Strahlkegel oder 
eine Strahlpyramide, kann ebenfalls von der Traversierungseinheit als Spezialfunktion 
durchgefQhrt werden. Figur 6 zeigt eine zweidimensionale Abbildung eines Strahlkegels. 

Die Signalaufbereitung zur Ansteuerung des Displays und die Timinggenerierung fQr das 
Display bzw. den Monitor kann in bekannter Art durch die optlonale 
Rasterisierungshardware erfolgen oder durch geeignete funktionale Einheiten umgesetzt 
werden falls vorteilhaft fUr die gewQnschte Anwendung. So kdnnen die Grundfunktionen 
der Standard Rasterisierungshardware mit den hardwareimplementierten Ray-Tracing 
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Verfahren und Funktionen zu einer sehr leistungsfahigen Echtzeit Hardwarearchrtektur 
verbunden werden. 

Eine zweite, wertere beispielhafte Ausfuhrungsform der Erfindung basiert auf der 
Gestaltung und Anwendung von frei programmierbaren Ray-Tracing CPUs oder Ray- 
Tracing Prozessoren, die programmgesteuert die erfindungsgemaii beschriebenen, 
speziellen Ray-Tracing Funktionen und Verfahren ausfQhren. Hierbei werden durch 
entsprechende Logik- und Funktionsparallelitat jeweils nur wenige, vorzugsweise ein oder 
zwei CPU Taktzyklen, zur Abarbeltung der Einzelfunktion bendtigt. 

Sowett interne Algorithmen, Verfahren und Funktionsablaufe der Ray-Tracing 
Prozessoren, beschrieben werden, sind diese mittels einer Hardware- 
beschreibungssprache, zum Beispie) HDL, VHDL, oder JHDL zu erstellen und auf die 
entsprechende Hardware zu Qbertragen. Die Hardwareimplementierung der Ray-Tracing 
Prozessoren mit den implementierten Verfahren und Funktionen kann beispielsweise in 
einem freiprogrammierbaren Logikbaustein FPGA, In ASJC Technologie, in der 
Kombination von digitalen Signalprozessoren mit FPGA / ASIC oder in einem 
festverdrahteten Spezial Chip erfolgen. 

Dies bedeutet, dass entsprechende Logikeinheiten und hardwaremaBig reaiisierte 
Arithmetikeinheiten zu gestalten sind, deren Einzelfunktionen programmgesteuert 
abgerufen werden kfinnen. AbhSngig von der Komplexitat der eingesetzten 
Hardwaretechnologie konnen pro Chip eine oder mehrere Ray-Tracing Prozessoren, mit 
oder ohne weiteren Logikfunktionen realisiert werden. 

Ray-Tracing Prozessoren sind voil programmierbare Recheneinhetten, die auf die 
AusfOhrung von Vektorarithmetikbefehlen und speziellen Ray-Tracing Befehlen wle 
, Traversieren ,, und "Erstellen von Beschleunigungsstrukturen" ausgelegt sind. Hierbei 
kann eine Auslegung unter Hinzunahme von Funktionseinheiten erfolgen oder aber auch 
mit bereits vorhandenen Funktionseinheiten unter Hinzunahme von ggf. wenigen 
Logikbausteinen. Beispielsweise kann das Traversieren durch spezielle 
Funktionseinheiten erfolgen oder durch eine Erweiterung der vorhandenen arithmetischen 
Funktionseinheiten urn wenige logische Funktionseinheiten. 

Wie in Figur 11 zu sehen ist werden mehrere der in Figur 5 dargestellten Ray-Tracing 
Prozessoren parallel geschaltet. Das Speicherinterface wird von einer Cache-Hierarchie 
gebildet, welche die ndtige Speicherbandbreite bereitstellt. Dieses Vorgehen ist wegen 
der starken KohSrenz benachbarter Strahlen effizient m6glich. Bei dem Ray-Tracing 
Prozessor Konzept bearbeitet jeder Ray-Tracing Prozessor entweder genau ein Pixel des 
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Bildes Oder ein Paket von mehreren Pixeln. Hierbei entspricht die Berechnung jedes 
einzelnen Pixels einem Berechnungsthreads. Mehrere dieser Threads werden zu einem 
Paket gebOndeft und a Is ganzes synchronislert abgearbeltet Synchron abgearbeitete 
Threads zeichnen sich dadurch aus, dass diese immer gemeinsam die gleiche Instruktion 
ausfOhren. Dies ermdglicht die Erstellung effizienter Hardware und die DurchfQhrung von 
Speicheranfragen pro ganzem Paket und nicht einzeln fOr jeden Thread. Vor allem diese 
Reduktion der Speicheranfragen ist ein wesentficher Vorteit der Bearbeitung von Paketen 
von Threads. 

Der Thread Generator von Figur 11 erstellt Threads, die auf den Ray-Tracing 
Prozessoren ausgefQhrt werden. Der Thread Generator kann auch von den Ray-Tracing 
Prozessoren programmiert werden. Spezielle Funktionen zum Abtasten der Pixel des 
Bilder auf eine Cache-koharente Art und Weise (zum Berspiel Hilbert Kurve) erlaubt es, 
die Ray-Tracing Prozessoren optimal mit koharenten Threads zu versorgen. Dies 
reduziert die benfltigte Speicherbandbreite. Der Thread Generator hat auch Zugriff Qber 
ein DMA-Interface auf den Hauptspeicher. Es konnen also auch die Startwerte fQr die 
einzelnen Threads in einem vorherigen Bearbeitungsschritt erstellt und in den Speicher 
geschrieben werden, um spater aus diesen Daten wieder neue Threads zu generieren. 

Das Bearbelten eines Pixels geschieht durch ein Softwareprogramm, das auf dem Ray- 
Tracing Prozessor ISuft. Dieses Softwareprogramm beschreibt einen rekursiven 
Verfahrensablauf zum Berechnen des Farbwertes eines Pixels, selbst wenn die Hardware 
auf Paketen von Strahlen arbeitet. Das Paketmanagement ist also transparent zum 
ProgrammiermodelL 

Figur 5 zeigt einen beispielhaften Aufbau eines Ray-Tracing Prozessors, Zu sehen ist ein 
Standard-Prozessorkern (RISC Kem), dem zwei Spezialcoprozessoren parallel geschaltet 
sind. Die Coprozessoren besitzen jeweils ihre eigenen Register. Es ist jedoch auch 
mfigllch, durch Spezialbefehte diese Registerinhalte von einem Coprozessor in einen 
anderen zu uberfOhren. Der Traversierungs-Kern ist ein spezielJer Coprozessor, der 
Strahlen effizient durch eine Beschleunigungsstruktur traversieren kann. Hierzu benfitigt 
er ein spezielles Speicherinterface zu den Knoten der Beschleunigungsstruktur (Knoten- 
Cache). Der Vektor Arithmetlk Kern Ist ein Spezialcoprozessor, der effizient Operatlonen 
im 3D Raum durchfiihren kann. Die von jeder Ray-Tracing Software benOtigten 
Vektoradditionen, Skalarmultiplikationen, Kreuzprodukte und Vektorprodukte konnen 
mittels dieser Einheit schnell berechnet werden. Die Vektorarithmetikeinhett bendtigt 
Zugriff auf einen Spezialcache, der es ermOglicht, ganze Vektoren In einem Takt zu laden. 
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Die Semantik des Traversierungsbefehls kfinnte folgendermaBen aussehen. Die Ray- 
Tracing CPU beschreibt spezielle Register mlt dem Ursprung und der Richtung des 
Strahles und der Adresse der Beschleunigungsstruktur, die traversiert werden soil. Nun 
wird ein spezieller Befehl aufgerufen, der eine spezielle Traversierungseinhert startet. 
Diese Einheit traversiert die Beschleunigungsstruktur und sendet alle Knoten, die Objekte 
enthaften, zu einer Listeneinheit, die einen Mailboxingmechanismus enthalten kann, der 
auch schon in der ersten beispielhaften AusfGhrungsform der Erfindung beschrieben 
wurde. FQr jedes Objekt wird nun ein kleines Programm auf der CPU ausgefDhrt, das den 
Strahl mit diesem Objekt schneidet 1st ein gQitiger Schnittpunkt des Strahles mit einem 
Objekt gefunden, so wird zu dem Programm zuruckgekehrt welches den Strahl 
geschossen hatte. 

Die in dem Ray-Tracing Prozessor hardwaremSBig implementierten Einzelbefehfe oder 
Logikfunktionen beinhalten die gleichen Algorithmen, die schon bej der festverdrahteten 
ersten Ausbi/dungsform der Erfindung beschrieben sind. Erganzend hierzu kann dieser 
Befehlssatz jedoch um weitere festverdrahtete Befehfe und Funktionen ergflnzt werden, 
die wiederum programmgesteuert zu aktivieren sind. Durch spezielle Traversierungs- 
Operationen, durch Vektorarlthmetik, sowie durch die parallele Abarbeitung mehrer 
Threads auf einem Ray-Tracing Prozessor wird die fOr Echtzeitanwendung erforderliche 
Rechenleistung bereitgestellt und gleichzeitig werden die Auswirkungen der 
Speicherlatenzen (Wartezeiten auf Speicheranfragen) auf die Systemgeschwindigkeft 
minimiert oder sogar irrelevant, 

D a duroh, doeG dio RTPU pmgrammgocteuort dazu vorwondt wordon kann, rofrureiv 
SokundQrDtrQhlon durch die Szono 2u -s chi e (i e n f wird doc ■ Programmiomtod e ff - i m 
Vorgloich zurfoetvordrxihtoton Hardwaro orheblich voroinfacht 

1st die Farbe des Pixels voIlstSndig berechnet. kann diese in den Frame-Buffer 
geschrieben werden. Gegebenenfalls kann zusatzlich die Distanz in den Z-Buffer 
geschrieben werden. Hierdurch 1st eine Anbindung an Rasterisierungshardware und die 
entsprechende Darstellung auf einem Display mOglich. 

Anspruch 10 beschreibt die Verwendung einer zusatzlichen raumaufteilenden 
Datenstruktur, die keine geometrischen Objekte spefchert oder referenziert, sondem 
RaumeinflQsse oder materialverandernde Parameter enthSIt. Solche RaumeinflQsse 
konnen beispielsweise Nebel, Dunst, Staubpartike) oder heiBer Rauch sein, wobei 
beispielsweise heiUer Rauch auch eine VerSnderung der durch das Volumen des Rauchs 
sichtbaren Szene zur Folge haben kann. Weitere RaumeinflQsse sind Llchtquellen Oder 
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materialverSndemde Auren wie sie beispielsweise in der Darsteffung von Fantasiewesen 
verwendet werden kbnnen. Hierbei ertaubt die Verwendung der raumaufteilenden 
Datenstruktur den Berechnungsaufwand erheblich zu reduzieren, da nur Einfltisse 
berOcksichtigt werden mQssen, die rSumlich so gelegen sind, dass sie einen Einfluss 
haben kdnnen. 

Anspruch 1 1 beschreibt eine Erweiterung, die es ermtiglicht, dreidimensionale Szenen zu 
verarbeiten, die nicht bzw. nicht ausschlie&lich aus Dreiecken aufgebaut sind und die bei 
Bedarf andere geometrische Primitive in Dreiecke oder eine einfach zu verarbeltende 
Zwischendarsteliung UberfQhrt. Hierbei wird die zusdtzliche Funktionalitat dadurch 
erreicht, dass die Hardware entweder urn Funktionseinheiten erweitert wird oder 
vorhandene Einheften die Funktionalitat umsetzen. 

Anspruch 12 beschreibt eine Erweiterung, die es ermflglicht, pro Strahl nicht nur den 
nachstgelegenen; sondern zusatzlich weitere Objekt-Strahl-SchnKtpunkte als Ergebnis 
einer Strahlverarbeitung zu berechnen. Hierbei ist es vorteilhaft, wenn die Ergebnisse 
nach der Entfemung vom Strahlureprung sortiert sind. Die maximale Anzahl der 
Schnittpunkte pro Ergebnis kann als Konstante festgelegt werden oder pro Strahl in 
AbhSngigkeit von Parametern der geschnittenen Objekte erfolgen. Diese Technik kann 
ve/wendet werden, urn Strahlen durch transparente Objekte effizlenter zu berechnen. 

Anspruch 13 beschreibt eine Erweiterung, die mit zusStzlfchen und/oder den vorhandenen 
Funktionseinheiten zahlen kann, wie oft ein bestimmtes Element in den Berechnungen 
eines BiJdes verwendet wurde, Hierbei k&nnen die zu zShlenden Elemente sehr 
unterschiedlich sein und eine mfigliche Klasstfizierung der Elemente WJnnte Qber die 
Adresse im Speicher Oder die ID eines Elementes erfolgen. Zu diesen Elementen 
gehSren: 

dynamische und geometrische Objekte, Teile oder vollstandige Materialbeschreibungen, 
Elemente oder Teilgruppen einer Raumbeschreibungsdatenstruktur, Programme oder 
Programmfunktionen, einzelne Speicherzellen und gartze Speicherseiten oder -bereiche. 

Anspruch 14 beschreibt eine Erweiterung der Funktionalitat zum Berechnen der 
Raumbeschreibungsdatenstrukturen zu Teilen oder vollst&ndigen dreidimensionalen 
Szenen, wobei zusatzliche Parameter pro dynamischem Objekt oder dynamischem 
Teilobjekt oder geometrischem Objekt einen Einfluss auf die Berechnungswelse der 
Raumbeschreibungsdatenstruktur haben. Solche EinflOsse kflnnen beispielsweise sein, 
dass ein Objekt spezifizlert, dass es In bestimmten Raumvolumina keine geometrischen 
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Objekte besitzt Dies eiiaubt es, die Raumbeschreibungsdatenstruktut effizienter zu 
berechnen und zusStziich den Berechnungsaufwand pro Btld welter zu reduzieren. 



Beschreibung der Zeichnungen 

Figur 1 zeigt, wie aus mehreren Stufen von Objekten ein Baum erstelli werden kann. 
Zunachst wlrd als Objekt 101 der Stufe 1 ein Blatt modelliert. Dieses Btatt 101 wird nun 
mehrfach instantiiert und an einen Ast 102 gesetzt, wodurch ein weiteres Objekt entsteht, 
jedoch jetzt ein Objekt der Stufe 2, Diese kleinen Aste 102 konnen nun wieder mehrfach 
instantiiert werden zu einem Baum 103 als Objekt der Stufe 3. 



Figur 2 zeigt die Ray-Casting-Pipeline 200 mit den wicbtigsten Datenpfaden, sowie der 

Schnittstelle zu den Caches. Der Pfeil 201 geht zur Shading-Einhert, der Pfeil 202 kommt 

von der Shading-Einhett Welterhin bedeuten: 

203: Traversierungs-Einheit 

204: Listen-Einheit weiche eine Mailbox enthSIt 

205: Matrix-Lade-Einhelt 

206: Strahl-Einheit 

207: Transformations-Einheit 

208: Schnittpunktberechnungs-Einheit 

209: Schnittpunkt-Einhelt 

210: Knoten Cache 

211: Listen Cache 

212: Matrix Cache 



Figur 3 zeigt das Top-Level Diagramm einer beispielhaften Implementierung der 
Erfindung. Die 4 Ray-Casting-Pipelines (RCP) sind Ober eine Cache-Hierarchie mh den 
getrennten Speichem for Knoten, Listen und Matrizen verbunden. In diesem 
Beispieldesign sind je zwei RCPs mit einer Shadingeinheit verbunden, die Zugriff auf 
einen lokalen Frame-Buffer und Z-Buffer hat. Ober diese werden Farbwerte mittels einer 
Tone-Mapping-Einheit in einen globalen Frame-Buffer geschrieben und Tiefenwerte direkt 
in einen globalen Z-Buffer geschickt. An dlesen Z-Buffer und Frame-Buffer kann eine dem 
Stand der Technik entsprechende Rasterisierungshardware (Rasterisierungs Pipeline) 
angeschlossen werden. 

Dabei bedeuten: 

301: Rasterisierungshardware 

302: Frame Buffer 

303: Video Out 

304: Tone Mapping Einheit 

305: Z-Buffer 

306: Frame Buffer 1 

307: Z-Buffer 1 
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308 
309: 
310 
311 
312 
313 
314 



316 
317 
318 
319: 
320; 
321 
322 
323 
324 
325: 
326 
327 



329 
330 
331 



Textur-Cache 1 
Shading Cache 1 
Shading Einheit 1 
Knoten Cache 1 
Usten Cache 1 
Matrix Cache 1 
RCP1 



315 Knoten Cache 2 



Listen Cache 2 
Matrix Cache 2 
RCP2 

Frame Buffer 2 
Z-Buffer2 
Textur-Cache 2 
Shading Cache 2 
Shading Einheit 2 
Knoten Cache 3 
Listen Cache 3 
Matrix Cache 3 
RCP3 



328 Knoten Cache 4 



Listen Cache 4 
Matrix Cache 4 
RCP4 



Ffgur 4 zeigt die Cache-lnfrastruktur, welche die nOtige interne Speicherbandbreite im 
Chip bereitstellt. In der Abbildung handelt es sich urn einen binSren n-stufigen Cache, es 
sfnd jedoch auch andere hierarchische Strukturen denkbar. 



Oabei bedeuten: 

401: Knoten Cache 1 

402: Knoten Cache 2 

403: Knoten Cache 3 

404: Knoten Cache 4 

405: Knoten Cache 5 

406: Knoten Cache 6 

407: Knoten Cache 7 

408: Knoten Speicher 

409: Listen Cache 1 

410: Listen Cache 2 

411: Listen Cache 3 

412: Usten Cache 4 

413: Listen Cache 5 

414: Listen Cache 6 

415: Listen Cache 7 

416: Listen Speicher 

417: Matrix Cache 1 

418: Matrix Cache 2 

419: Matrix Cache 3 

420: Matrix Cache 4 

421: Matrix Cache 5 

422: Matrix Cache 6 



WO 2005/078665 PCT/DE2005/000266 

25 

423: Matrix Cache 7 
424: Matrix Speicher 
425: Texture Cache 1 
426: Texture Cache 2 
427: Texture Speicher 
428: Shading Cache 1 
429: Shading Cache 2 
430: Shading Cache 3 
431 : Shading Speicher 

Figur 5 zeigt die belspielhafte AusfOhrungsform einer Ray-Tracing CPU. Dabei haben die 
BIBckefolgende Bedeutung: 

501 : Instruktion Laden 

502: Befehlsspeicher 

503: RISC Kern 

504: Cache 

505: Traversierungs Kern 

506: Knoten Cache 

507: Vektor Arithmetik Kern 

508: Vektor Cache 



Figur 6 zeigt ein Beispiel der vereinfachten Geometrie in den Octreeknoten. Dabei ist mit 
der Bezugsziffer 601 der Strahlkegel bezeichnet und mit der Bezugsziffer 602 eine 
"Vereinfachte Geomtrie". 

Rgur 7 zeigt ein Beispiel der regelmSBigen Grid Beschleunigungsstruktur an einer 
einfachen Szene. Der Raum ist der Einfachheit halber nur in 2D gezeichnet. Mit der 
Bezugsziffer 701 ist der Strahl bezeichnet. 

Figur 8 zeigt ein Beispiel der k-D Baum Beschleunigungsstruktur an einer einfachen 
Szene. Der Raum ist der Einfachheit halber nur in 2D gezeichnet. Mit der Bezugsziffer 
801 ist der Strahl bezeichnet. 

Figur 9 zeigt ein Beispiel der Octree Beschleunigungsstruktur an einer einfachen Szene. 
Der Raum ist der Einfachheit halber nur in 2D gezeichnet. Mit der Bezugsziffer 901 ist der 
Strahl bezeichnet. 

Rgur 10 zeigt die Dreieckstransformation aus dem Globalen Raum in den Norm-Dreiecks 
Raum. Es ist ein Strahl 1001 zu sehen sowie ein Dreieck 1002. Durch eine afflne 
Transformation, die durch den Pfeil 1003 reprSsentiert wird, entsteht ein transformlerter 
Strahl 1004 sowie ein Normdreleck 1005. Der Globale Raum wird durch das linke 
Koordinatensystem reprSsentiert und der Norm-Dreiecksraum durch das rechte 
Koordlnatensystem. 
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Figur 11 zelgt eine beispielhafte AusfQhrungsform der Erfindung basierend auf spezielten 
Ray-Tracing Prozessoren. Dabei haben die Blocke folgende Bedeutung: 

1 1 01 : Rasterisierungshardware 

1102: Thread Generator 

1103: Z-Buffer / Frame Buffer 

1104: Video- Out 

1 1 05: Ray-Tracing Prozessor 1 

1 1 06: Ray-Tracing Prozessor 2 

1107: Ray-Tracing Prozessor 3 

1 1 08: Ray-Tracing Prozessor 4 

1109: Cache 1 

1110: Cache 2 

1111: Cache 3 

1112: Cache 4 

1113: Caches 

1114: Caches 

1115: Cache 7 

1116: Hauptspeicher 



Figur 12 zeigt eine vereinfachte Version der in Figur 2 gezeigten Ray-Casting-Pipeline. 
Dabei haben die Bl&cke folgende Bedeutung: 

1201: Traversierungs-Einheit 

1202: Knoten Cache 

1203: Listen-Einhe'rt 

1204: Listen Cache 

1205: Transformations-El nhelt 

1206: Matrix-Cache 

1207: Schnittpunktberechnungs-Einheit 

Der Pfell 1208 kommt von der Shading-Einheit 



Figur 13 zeigt einen einfachen Fall, in dem durch das Auswerten Vergleichen der 
Eckpunkte eines Drefecks und der Eckpunkte einer Box entschieden werden kann, ob das 
Dreieck mit der Box Oberlappt Oder nicht. Falls die X-Koordinaten des Dreiecks Weiner 
sind als die kleinste X-Koordinate der Box, so liegt das Dreieck aulierhalb der Box. Das 
Dreieck ist mit der Bezugsziffer 1301 bezeichnet, die Box mit der Bezugsziffer 1302. 
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Patentanspruche 

1. Vorrichtung zur photorealistischen Darstellung von dynamischen komplexen 
dreidimensionalen Szenen mlttels des Ray-Tracing Verfahrens, dadurch gekennzeichnet, 
dass diese wenfgstens efnen programmierbaren Ray-Tracing Prozessor aufweist, in dem 
implennentiert sind: 

• spezielle Traversierungsbefehle und/oder 

• Vektorarithmetlkbefehle und/oder 

• Befehte zur Erstellung von Ray-Tracing Beschleunigungsstrukturen und/oder 

• wenigstens elne Entscheidungseinhelt (Mailbox), mit der unterdrtickt wird, dass bei 
AusfOhrung des Ray-Tracing-Verfahrens beim SchieBen eines Strahtes bereits mit 
dem Strahl geschnittene Objekte Oder Dreiecke mehrfach mit dem Strahl 
geschnitten werden, 

und dass die Vorrichtung so organisiert ist, dass mehrere Threads parallel abgearbeitet 
werden kennen und mehrere Threads automatisch synchron abgearbeitet werden kSnnen 
und dass die Vorrichtung uber elne n-Ievel Cache Hierarchie und/oder Gber ein virtuelles 
Speichermanagement verfOgt und/oder uber eine direkte Verbindung mit dem 
Hauptspeicher 

2. Vorrichtung zur photorealistischen Darstellung von dynamischen komplexen 
dreidimensionalen Szenen mlttels des Ray-Tracing Verfahrens, dadurch gekennzeichnet, 
dass diese wenigstens eine spezielle Traversierungs-Einheit aufweist und wenigstens 
eine Listen-Einheit und wenigstens eine Entscheidungseinhelt (Mailbox), mit der 
unterdruckt wird, dass bei AusfOhrung des Ray-Traclng-Verfahrens beim Schietten eines 
Strahles bereits mit dem Strahl geschnittene Objekte oder Dreiecke mehrfach mit dem 
Strahl geschnitten werden, und wenigstens eine Schnittpunktberechnungs-Einheit und 
wenigstens eine Einheit zum Erstellen von Beschleunigungsstrukturen und wenigstens 
efne Transformations-Einheit und/oder wenigstens eine Einheit zum LQsen von linearen 
Gleichungssystemen und dass mehrere Strahlen oder Threads parallel abgearbeitet 
werden konnen und mehrere Strahlen bzw. Threads automatisch synchron abgearbeitet 
werden kOnnen und beliebig viele Stufen von dynamischen Objekten in dynamischen 
Objekten realisiert werden kennen und dass die Vorrichtung uber eine n-level Cache 
Hierarchie und/oder Uber ein virtuelles Speichermanagement und/oder Ciber eine direkte 
Verbindung mit dem Hauptspeicher verfOgt 

3. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass diese wenigstens eine 
spezielle Traversierungs-Einheit aufweist und wenigstens eine Listen-Einheit und 
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wenlgstens eine Entscheidungseinheit (Mailbox), mit der unterdrQckt wird, dass bei 
Ausfuhrung des Ray-Tracing-Verfahrens beim SchleSen eines Strahles bereits mit dem 
Strahl geschnfttene Objekte Oder Dreiecke mehrfach mit dem Strahl geschnitten werden, 
und wenigstens eine Schnittpunktberechnungs-Einheit und wenlgstens efne Einheit zum 
Erstellen von Beschleunigungsstrukturen und wenigstens einen Ray-Tracing Prozessor. 

4. Vorrichtung gemaii den AnsprQchen 1, 2 Oder 3, dadurch gekennzeichnet, dass die 
wenigstens eine Einheit zum Erstellen von Beschleunigungsstrukturen durch spezielle 
Hardware Oder durch programmierbare Einheiten oder Ray-Tracing Prozessoren realisiert 
wird und funktlonell Verfahren durchfQhrt zum Datenstrukturaufbau der 
Beschleunigungsstruktur sowie der Entscheidung, ob ein Dreieck Oder eine Box eine 
andere Box Qbertappt, indem die wenigstens eine Einheit eine Entscheidung abh&ngig 
von Eckpunktverglelchen her Ecken des Dreiecks bzw. der Box und der Ecken der 
zweiten Box durchfQhrt und - falls keine Entscheidung mfcglich ist - eine konservative 
Entscheidung trifft oder in diesem Fall ein Programm auf dem programmierbaren Ray- 
Tracing Prozessor gestartet wird, das die exakte Entscheidung fatlt, oder eine weftere 
spezielle Hardwareelnheit die exakte Entscheidung failt oder die ganze Berechnung auf 
dem Ray-Tracing Prozessor stattfindet. 

5. Vorrichtung gemaii den AnsprQchen 3 oder 4, dadurch gekennzeichnet, dass die 
wenigstens eine Transformatlons-Efnheit und/oder die wenigstens eine Logikeinheit zum 
Ldsen linearer Gleichungssysteme funktionell zur Primarstrahlgenerierung und / oder 
Objektraumtransformatlon und / oder Dreiecks-Normraumtransformatlon und / oder 
Reflektionsstrahlberechnung und / oder Transparenzstrahlberechnung und J oder 
Schattenstrahlberechnung und / oder Normalentransformation verwendet wird. 

6. Vorrichtung gemaB efnem der AnsprQche 1 bis 5, dadurch gekennzeichnet, dass die 
wenigstens eine Traversierungseinheit bzw. der Traversierungsbefehl nicht nur entlang 
eines Strahles traversieren kann, sondern auch ein Volumina, so dass alle Objekte in 
diesem Volumina bearbeitet werden kdnnen. 

7. Vorrichtung gemaii elnem der AnsprQche 1 bis 6, dadurch gekennzeichnet, dass die 
wenigstens eine Traversierungseinheit bzw. der Traversierungsbefehl nicht nur entlang 
eines Strahles traversieren kann, sondern auch entlang eines Strahlkegels oder einer 
Strahlpyramide, so dass alle Objekte, die sich in dem Strahlkegel oder der Strahlpyramide 
befinden, von vome nach hinten bearbeitet werden konnen. 

8. Vorrichtung gemaii einem der AnsprQche 1 bis 7, dadurch gekennzeichnet, dass die 
Funktion der wenigstens einen Traversierungs-Einheit und die hardwaremaUige 
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Umsetzung der Traverslenings-Befehle darauf beruht, dass ein Strahl durch eine 
Beschleunigungsstruktur traverslert wird, die auf dem k-D Baum-Verfahren oder dem 
Octreeverfahren oder dem regelmaSigen Grid-Verfahren oder dem Bounding-Volume- 
Hlerarchie Verfahren basiert, wobei in jedem Beschleunigungsstruktur-Knoten 
vereinfachte Geometriedaten gespeichert warden, die verwendet werden sobald der 
betrachtete Strahlkegel einen GroStell des zu dfesem Knoten geh&rigen Volumlnas 
durchiauft 

9. Vorrlchtung nach einem der AnsprQche 1 bis 6 r dadurch gekennzeichnet, dass 
mehrere Ray-Tracing Einheiten auf mehreren Chips und/oder mehreren Platinen parallel 
arbeiten. 

10. Vorrichtung nach einem der Ansprtiche 1 bis 9, dadurch gekennzeichnet, dass die 
beschriebene Ray-Tracing Hardware zusatzlich eine raumaufteilende Datenstruktur 
verwendet, in der RaumeinflDsse und/oder materialverSndernde Parameter gespeichert 
werden, die mit den vorhandenen und/oder zussttzlichen Funktionseinheiten ausgewertet 
werden. 

11. Vorrichtung nach einem der AnsprQche 1 bis 10, dadurch gekennzeichnet, dass die 
Ray-Tracing Hardware dreidimensionale Szenen verarbeitet, dfe nicht ausschlielilich aus 
Drelecken aufgebaut sind sonclem auch andere geometrische Objekte enthalten, die bei 
Bedarf in andere geometrische Objekte OberfOhrt und/oder direkt mit zusStzlichen 
und/oder vorhandenen Funktionseinheiten und/oder dem programmlerbaren Ray-Tracing 
Prozessor bearbeitet werden. 

12. Vorrichtung nach einem der AnsprQche 1 bis 11, dadurch gekennzeichnet, dass die 
beschriebene Ray-Tracing Hardware dreidimensionale Szenen verarbeitet und fOr einen 
Strahl keinen, einen oder mehrere Objekt-Strahl-Schnlttpunkte sortiert oder unsortiert 
nach der Entfernung berechnet, wobei die Anzahl der berechneten Objekt-Strahl- 
Schnittpunkte als Konstante festgelegt sein und/oder durch zusfltzliche Parameter der 
Objekte beschrieben werden kann. 

13. Vorrichtung nach einem der AnsprQche 1 bis 12, dadurch gekennzeichnet, dass die 
beschriebene Ray-Tracing Hardware mit zusatzlichen und/oder den vorhandenen 
Funktionseinheiten zflhlen kann, wie oft ein dynamisches und/oder geometrisches Objekt 
und/oder eine Materiatbeschreibung und/oder ein Element und/oder eine Teilgruppe der 
Raumbeschreibungsdatenstruktur und/oder ein Programm und/oder eine Speicherzelle 
und/oder eine Speicherseite in den Berechnungen eines Bildes verwendet wurden. 
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14. Vorrichtung nach einem der AnsprOche 1 bis 13, dadurch gekennzeichnet, dass die 
beschriebene Ray-Tracing Hardware mit zusatzlichen und/oder den vorhandenen 
Funktionseinheiten Raumbeschreibungsdatenstrukturen zu Teilen oder vollstandigen 
dreidimensionalen Szenen berechnen kann, wobei zusatzliche Parameter pro 
dynamischem Objekt und/oder dynamischem Teilobjekt und/oder geometrlschem Objekt 
einen Einfluss auf die Berechnungsweise der Raumbeschreibungsdatenstruktur haben. 

15. Vorrichtung nach einem der AnsprOche 1 bis 14, dadurch gekennzeichnet, dass die 
beschriebene Ray-Tracing Hardware uber einen gemeinsamen Z-Buffer und Frame-Buffer 
an eine Rasterisierungshardware angeschlossen ist, die sich auf dem gleichen oder 
einem separaten Chip wie die Ray-Tracing Hardware befindet 

16. Vorrichtung nach einem der AnsprOche 1 bis 15, dadurch gekennzeichnet, dass 
mehrere Ray-Tracing Einheiten parallel arbetten und die zur Berechnung bendtigten 
Daten auf die Speicher dieser Ray-Tracing Einheiten verteitt sind, und bei Bedarf jeweils 
von der Einheit welche die benOtigten Daten speichert nachgeladen wird. 
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